byterobust

豆包是如何炼成的？字节放出自研万卡训练系统ByteRobust论文

大型语言模型（LLM）训练的核心基础设施是 GPU。现如今，其训练规模已达到数万块 GPU，并且仍在持续扩大。同时，训练大模型的时间也越来越长。例如，一个 405B 参数模型 LLaMA 3 的预训练，动用了 16,384 块 NVIDIA H100 GPU，